尽管最近的研究集中在量化单词用法上以找到叙事情感弧的整体形状,但叙事中叙事的某些特征仍有待探索。在这里,我们通过找到单词用法中波动开始相关的文本长度来表征亚叙事的叙事时间尺度。我们代表30,000多个项目Gutenberg书籍作为时间序列使用OusiOmetrics,这是一个具有基本含义的功率破坏者框架,本身是对价价 - 宽松义务框架的重新解释,这些框架源自语义差异。我们使用经验模式分解将每本书的力量和危险时间序列分解为组成振荡模式和非振荡趋势的总和。通过将原始力量和危险时间序列的分解与从洗牌文本中得出的分解,我们发现较短的书籍仅显示出一般趋势,而较长的书籍除了一般趋势外,还具有波动,类似于子图在一个中的弧线中的弧线。总体叙事弧。这些波动通常有几千个单词的时期,无论书籍长度或库分类代码如何,但根据书的内容和结构而有所不同。我们的方法提供了一种数据驱动的denoisising方法,可用于各种长度的文本,与使用大型窗口尺寸的更传统的方法相反,该方法可能会无意中平滑相关信息,尤其是对于较短的文本而言。
translated by 谷歌翻译
情绪感知智能系统对于广泛的应用是必不可少的。这些系统由语言模型驱动,这主要落入两个范式:基于词汇和上下文。虽然最近的上下文模型越来越占主导地位,但由于它们的可解释性和易用性,我们仍然可以看到基于词汇的模型的需求。例如,基于词汇的模型允许研究人员容易地确定哪些单词和短语对测量情绪的变化有贡献。任何基于词汇的方法的挑战是,词典需要通过新的单词和表达进行常规扩展。在这里,我们提出了两个用于自动词典扩展的模型。我们的第一个模型建立了一种基线,采用简单而浅的神经网络,使用非上下文方法初始化了预先训练的单词嵌入。我们的第二种模式改进了我们的基线,具有深度变压器的网络,它带来了估计其词汇极性的单词定义。我们的评估表明,两种模型都能够以与亚马逊机械土耳其人的评论者相似的准确度,但是在成本的一小部分中,可以获得类似的准确性。
translated by 谷歌翻译
从Linac Coohent Light Source(LCLS-II)和高级光子源升级(APS-U)等工具产生的数据中迅速提取可行的信息,由于高(最高(最高为TB/S)数据速率)变得越来越具有挑战性。常规的基于物理的信息检索方法很难快速检测有趣的事件,以便及时关注罕见事件或纠正错误。机器学习〜(ML)学习廉价替代分类器的方法是有希望的替代方法,但是当仪器或样品变化导致ML性能降解时可能会灾难性地失败。为了克服此类困难,我们提出了一个新的数据存储和ML模型培训体系结构,旨在组织大量的数据和模型,以便在检测到模型降解时,可以快速查询先验模型和/或数据。针对新条件进行了微调。我们表明,与当前最新的训练速度提高了200倍和92X端到端模型更新时间的速度相比,我们的方法最多可以达到100倍数据标记的速度。
translated by 谷歌翻译